“ Inception Labs 推出的 Mercury 系列擴散大型語言模型,說不定會徹底改變我們對語言模型的認知。”
傳統語言模型的侷限
咱們現在用的很多語言模型,比如那些能寫文章、回答問題的 AI,大多是自回歸模型。這到底是個啥意思呢?簡單來說,就是它們生成文字的時候,得一個詞一個詞地來,就像咱們寫文章一樣,得一個字一個字地寫。比如說,你想讓 AI 寫個故事,它得先寫第一個詞,然後再寫第二個詞,以此類推。而且每次寫一個詞的時候,它都得計算上文所有的文字,通過一個超級複雜的神經網路來實現,而這個網路裡有幾十億甚至更多個參數。這就好比你每次寫一個字,都得先思考整個字典一樣,效率可想而知。
而且,如果想讓這些模型生成一些需要深度推理的內容,比如解決一個複雜的數學問題或者寫一篇邏輯嚴密的文章,那生成速度就會慢得讓人抓狂。因為它們得一步步來,每一步都不能出錯,這就導致了推理成本和延遲的大幅增加。就好比你讓一個蝸牛去爬一座高山,雖然它能爬到山頂,但得花上好幾年時間。